17 research outputs found

    Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling

    Full text link
    The study of speech disorders can benefit greatly from time-aligned data. However, audio-text mismatches in disfluent speech cause rapid performance degradation for modern speech aligners, hindering the use of automatic approaches. In this work, we propose a simple and effective modification of alignment graph construction of CTC-based models using Weighted Finite State Transducers. The proposed weakly-supervised approach alleviates the need for verbatim transcription of speech disfluencies for forced alignment. During the graph construction, we allow the modeling of common speech disfluencies, i.e. repetitions and omissions. Further, we show that by assessing the degree of audio-text mismatch through the use of Oracle Error Rate, our method can be effectively used in the wild. Our evaluation on a corrupted version of the TIMIT test set and the UCLASS dataset shows significant improvements, particularly for recall, achieving a 23-25% relative improvement over our baselines.Comment: Interspeech 202

    Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos

    Full text link
    The recent state of the art on monocular 3D face reconstruction from image data has made some impressive advancements, thanks to the advent of Deep Learning. However, it has mostly focused on input coming from a single RGB image, overlooking the following important factors: a) Nowadays, the vast majority of facial image data of interest do not originate from single images but rather from videos, which contain rich dynamic information. b) Furthermore, these videos typically capture individuals in some form of verbal communication (public talks, teleconferences, audiovisual human-computer interactions, interviews, monologues/dialogues in movies, etc). When existing 3D face reconstruction methods are applied in such videos, the artifacts in the reconstruction of the shape and motion of the mouth area are often severe, since they do not match well with the speech audio. To overcome the aforementioned limitations, we present the first method for visual speech-aware perceptual reconstruction of 3D mouth expressions. We do this by proposing a "lipread" loss, which guides the fitting process so that the elicited perception from the 3D reconstructed talking head resembles that of the original video footage. We demonstrate that, interestingly, the lipread loss is better suited for 3D reconstruction of mouth movements compared to traditional landmark losses, and even direct 3D supervision. Furthermore, the devised method does not rely on any text transcriptions or corresponding audio, rendering it ideal for training in unlabeled datasets. We verify the efficiency of our method through exhaustive objective evaluations on three large-scale datasets, as well as subjective evaluation with two web-based user studies

    Nonlinear computational speech modeling exploiting aerodynamics in the vocal tract

    No full text
    Conventional computational speech models usually avoid detailed aerodynamic modeling and determine sound sources in the vocal tract in a phenomenological manner. In this dissertation, a model is developed that allows the computational simulation of important aerodynamic properties that could affect the produced sound. The model exploits recent theoretical and experimental results concerning the flow field in the vocal tract and combines conclusions related to aerodynamics and aeroacoustics of the glottis and the supralaryngeal parts. The aerodynamic-aeroacoustic model is combined with an improved vocal tract acoustics simulation module to achieve articulatory synthesis. To control the articulatory synthesizer, an inversion system was developed that can identify the hidden vocal tract properties given an observed speech signal. The speech inversion system treats speech as essentially an audiovisual process and approximates the complex mapping between the observed information and the vocal tract by means of a switching model. Each submodel is trained via maximum likelihood and canonical correlation analysis. Switching between the submodels is determined by a discrete Markov process. Various alternative audiovisual fusion schemes were investigated that allow interaction between acoustic and optical information at various levels of synchronization. The goal is to recover the underlying vocal tract geometry. Experimental results demonstrate that exploitation of multimodal information by the proposed model clearly benefits inversion results, compared to approaches that exclusively use the one or the other modality. Based on the proposed computational speech model and various articulatory data, mimicing the human speech system becomes possible. More specifically, the articulatory state sequence is modeled as a Markov process and its properties are identified via audiovisual speech inversion. At each articulatory state, given the corresponding description of the vocal tract, we can resynthesize speech via articulatory synthesis. Vocal tract geometry is described by an articulatory model that is trained on X-ray vocal tract data and is properly fitted to the visible part of the tongue in ultrasound data of the mouth cavity. The proposed framework allows broader application and evaluation of the speech acoustics and aerodynamics simulation system and the speech inversion process.Πολλά συμβατικά υπολογιστικά μοντέλα φωνής συνήθως παρακάμπτουν την αεροδυναμική μοντελοποίηση ακολουθώντας φαινομενολογική προσέγγιση για τον προσδιορισμό των ακουστικών πηγών στη φωνητική οδό. Αξιοποιώντας την επικρατούσα θεώρηση για το πεδίο ροής στο φωνητικό σωλήνα και συνδυάζοντας συμπεράσματα που προκύπτουν από τη μελέτη της αεροδυναμικής τόσο στη γλωττίδα όσο και στο υπερλαρύγγειο τμήμα, στα πλαίσια της διδακτορικής διατριβής αναπτύχθηκε ένα μοντέλο που επιτρέπει την υπολογιστική προσομοίωση σημαντικών αεροδυναμικών χαρακτηριστικών που επιδρούν στον παραγόμενο ήχο. Το αεροδυναμικό μοντέλο συνδυάστηκε με ένα βελτιωμένο σύστημα προσομοίωσης του ακουστικού πεδίου μέσα στη φωνητική οδό για σύνθεση φωνής με τη χρήση αρθρωτών. Ο συνδυασμός επιτεύχθηκε μέσω κατάλληλης αεροακουστικής μοντελοποίησης στη γλωττίδα και σε ενδεχόμενες στενώσεις της φωνητικής οδού. Για τον έλεγχο του συνθέτη φωνής, αναπτύχθηκε σύστημα ταυτοποίησης του ανθρώπινου φωνητικού συστήματος με βάση ένα παρατηρούμενο σήμα φωνής. Το εν λόγω πρόβλημα συχνά αναφέρεται ως αντιστροφή φωνής. Αναπτύχθηκε ένα σύστημα αντιστροφής φωνής το οποίο βασίζεται σε οπτικοακουστική θεώρηση της φωνής. Η σύνθετη σχέση μεταξύ της οπτικοακουστικής πληροφορίας και των χαρακτηριστικών της φωνητικής οδού προσεγγίζεται μέσω ενός διακοπτόμενου γραμμικού δυναμικού μοντέλου. Κάθε επιμέρους τμηματικό μοντέλο υπολογίζεται αποδοτικά μέσω στατιστικών τεχνικών όπως είναι η μεγιστοποίηση της πιθανοφάνειας και η ανάλυση κανονικής συσχέτισης. Η εναλλαγή μεταξύ των επιμέρους μοντέλων καθορίζεται από μια διακριτή διαδικασία Markov. Μελετήθηκαν εναλλακτικά συνδυαστικά σχήματα που επιτρέπουν αλληλεπίδραση μεταξύ της ακουστικής και της οπτικής ροής πληροφορίας σε διάφορα επίπεδα συγχρονισμού. Χρησιμοποιώντας τα οπτικά σε συνδυασμό με τα ακουστικά χαρακτηριστικά επιτυγχάνεται η αποδοτική εκτίμηση των τροχιών που ακολουθούνται από διάφορα σημεία ενδιαφέροντος του συστήματος παραγωγής φωνής. Τα πειραματικά αποτελέσματα δείχνουν ότι με την αξιοποίηση της πολυτροπικής πληροφορίας στο προτεινόμενο σύστημα βελτιώνεται η αποτελεσματικότητα της αντιστροφής της φωνής σε σχέση με αντίστοιχα συστήματα που χρησιμοποιούν αποκλειστικά τη μία ή την άλλη πηγή πληροφορίας. Με βάση το προτεινόμενο υπολογιστικό μοντέλο φωνής και πληθώρα δεδομένων άρθρωσης γίνεται δυνατή η μίμηση του ανθρώπινου φωνητικού συστήματος. Συγκεκριμένα, η ακολουθία καταστάσεων άρθρωσης μοντελοποιείται ως διαδικασία Markov και τα χαρακτηριστικά της ταυτοποιούνται μέσω οπτικοακουστικής αντιστροφής της φωνής. Σε κάθε κατάσταση άρθρωσης, με δεδομένη την αντίστοιχη περιγραφή της γεωμετρίας της φωνητικής οδού είναι δυνατή η σύνθεση φωνής με τη συνδυασμένη εφαρμογή των μοντέλων αεροδυναμικής και ακουστικής. Η γεωμετρία της φωνητικής οδού περιγράφεται μέσω παραμετρικού μοντέλου άρθρωσης που εκπαιδεύεται με την αξιοποίηση δεδομένων άρθρωσης από εικόνες ακτίνων-Χ και προσαρμόζεται κατάλληλα στο ορατό τμήμα της γλώσσας σε εικόνες υπερήχων της στοματικής κοιλότητας. Το προτεινόμενο πλαίσιο επιτρέπει την ευρύτερη εφαρμογή και αξιολόγηση του συστήματος αεροδυναμικής και ακουστικής προσομοίωσης αλλά και της διαδικασίας αντιστροφής φωνής

    Designing and Evaluating Speech Emotion Recognition Systems: A reality check case study with IEMOCAP

    Get PDF
    There is an imminent need for guidelines and standard test sets to allow direct and fair comparisons of speech emotion recognition (SER). While resources, such as the Interactive Emotional Dyadic Motion Capture (IEMOCAP) database, have emerged as widely-adopted reference corpora for researchers to develop and test models for SER, published work reveals a wide range of assumptions and variety in its use that challenge reproducibility and generalization. Based on a critical review of the latest advances in SER using IEMOCAP as the use case, our work aims at two contributions: First, using an analysis of the recent literature, including assumptions made and metrics used therein, we provide a set of SER evaluation guidelines. Second, using recent publications with open-sourced implementations, we focus on reproducibility assessment in SER.Comment: Accepted at ICASSP 202

    Morphological variation in the adult vocal tract : a modeling study of its potential acoustic impact

    No full text
    In order to fully understand inter-speaker variability in the acoustical and articulatory domains, morphological variability must be considered, as well. Human vocal tracts display substantial morphological differences, all of which have the potential to impact a speaker's acoustic output. The palate and rear pharyngeal wall, in particular, vary widely and have the potential to strongly impact the resonant properties of the vocal tract. To gain a better understanding of this impact, we combine an examination of morphological variation with acoustic modeling experiments. The goal is to show the theoretical acoustic effect of common inter-speaker differences for a set of English vowels. Modeling results indicate that the effect is indeed strong, but also surprisingly complex and context-specific, even when morphology varies in relatively straightforward ways.4 page(s

    A Phase-Based Time-Frequency masking for multi-channel speech enhancement in domestic environments

    No full text
    This paper introduces a novel time-frequency masking approach for speech enhancement, based on the consistency of the phase of the cross-spectrum observed at multiple microphones. The proposed approach is derived from solutions commonly adopted in spatial source separation and can be used as a post-filter in traditional multi-channel speech enhancement schemes. Since it is not based on a modeling of the coherence of diffuse noise, the proposed method complements traditional post-filters implementations, targeting non diffuse/coherent sources. It is particularly effective in domestic scenarios where microphones in a given room capture interfering coherent sources active in adjacent rooms. An experimental analysis on the DIRHA-GRID corpus shows that the proposed method considerably improves the signal-to-interference-ratio and can be used on top of state-of-the-art multi-channel speech enhancement methods

    Direct estimation of articulatory kinematics from real-time magnetic resonance image sequences

    No full text
    A method of rapid, automatic extraction of consonantal articulatory trajectories from real-time magnetic resonance image sequences is described. Constriction location targets are estimated by identifying regions of maximally-dynamic correlated pixel activity along the palate, the alveolar ridge, and at the lips. Tissue movement into and out of the constriction location is estimated by calculating the change in mean pixel intensity in a circle located at the center of the region of interest. Closure and release gesture timings are estimated from landmarks in the velocity profile derived from the smoothed intensity function. We demonstrate the utility of the technique in the analysis of Italian intervocalic consonant production.4 page(s
    corecore